VISUALIZACIÓN DE LOS DATOS

Elaboración de gráficas para la visualización de los datos. El conjunto de datos utilizado es el dataset del Trabajo Fin de Máster. Son datos de una aseguradora de coches.



library(ggplot2)
library(plotly)
library(naniar)
library(extracat)
library(crosstalk)
library(htmltools)



data <- read.csv('tfm_fraude_I_tramas.csv', header = TRUE)
data <- subset( data, select = -ref )
attach(data)



Anális gráfico de valores perdidos



n_miss(data)
## [1] 1797890
n_complete(data)
## [1] 10983532
prop_miss(data)
## [1] 0.1406643
prop_complete(data)
## [1] 0.8593357
pct_miss(data)
## [1] 14.06643
pct_complete(data)
## [1] 85.93357


miss_var_summary(data)
## # A tibble: 123 x 3
##    variable n_miss pct_miss
##    <chr>     <int>    <dbl>
##  1 X19      103857     99.9
##  2 X20      103796     99.9
##  3 X1        79851     76.8
##  4 X3        79851     76.8
##  5 X2        79851     76.8
##  6 X5        79851     76.8
##  7 X6        79851     76.8
##  8 X17       79851     76.8
##  9 X14       79848     76.8
## 10 X13       79848     76.8
## # ... with 113 more rows
miss_var_table(data)
## # A tibble: 14 x 3
##    n_miss_in_var n_vars pct_vars
##            <int>  <int>    <dbl>
##  1             0     59   48.0  
##  2             4     36   29.3  
##  3             6      2    1.63 
##  4           221      1    0.813
##  5          5491      1    0.813
##  6          7158      1    0.813
##  7         31847      1    0.813
##  8         71243      2    1.63 
##  9         71246      3    2.44 
## 10         71250      1    0.813
## 11         79848      8    6.50 
## 12         79851      6    4.88 
## 13        103796      1    0.813
## 14        103857      1    0.813















Análisis gráfico de las variables